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摘 要 : 


[目的 /意义 ] 近 年 来 国内 数字 人 文 领域 成 果 涌 现 ,并 逐渐 从 认 知 探索 阶段 走向 数字 化 探索 阶段 。 从 微观 的 “数据 
资源 ”数字 技术 ”视角 出 发 ,通过 量化 分 析 来 刻画 “数字 ” 与“ 人文" 碰撞 的 真实 全 貌 , 以 期 对 数字 人 文 “ 数 字 型 研 
究 有 一 个 直观 和 实际 的 认 知 和 思考 。[ 方 法 /过 程 ] 利 用 文献 计量 、 质 性 分 析 、 多 维 尺度 分 析 等 方法 ,从 研究 阵地 分 

布 .学 科 交 又 特征 “数字 ”运用 情况 .主要 研究 类 型 等 维度 ,对 国内 数字 人 文 相关 研究 进行 深度 分 析 , 并 提出 相关 
思考 。[ 结果 /结论 ] 从 研究 阵地 看 ,数字 人 文 研究 分 布 均衡 、 百 家 争鸣 ,在 多 学 科 具 有 广阔 空间 ;从 数据 基础 看 , 少 
数 几 个 大 型 专题 数据 库 和 研究 者 自 整 理 数据 是 主要 数据 来 源 ; 从 研究 类 型 看 ,资源 建设 型 工具 驱动 型 和 场景 融 
合 型 三 类 研究 各 有 侧重 ,场景 融合 型 研究 在 “数字 ”和 “人 文 ” 中 较 好 地 实现 平衡 。 未 来 ,需要 积极 搭建 相关 数据 基 


学 者 数字 学 术 能 力 , 推 动 “ 人 文 ”角色 转变 ,以 支持 数字 人 文 研究 


范式 变 蔷 。 
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CO 数字 人 文 (Digital Humanities, DH) 源 于 人 文 计 
算 NHumanities Computing)” ,是 计算 机 或 数字 技术 与 
人 闫 学 科 交 叉 的 学 术 活动 领域 ,也 可 以 被 定义 为 进行 
人 注 学 术 研 究 的 新 方式 。 它 的 显著 特征 是 培养 人 文 和 
数 党 之 间 的 双向 关系 : 既 使 用 “数字 "来 解答 “人文 " 问 
题 3 汉 使 用 “数字 "来 提出 新 的 "人文 "问题 ,而 这 两 者 
和 入 是 同时 进行 的 。 

数字 人 文 在 我 国 已 引起 广泛 关注 。 早 在 2003 年 ， 
《信息 化 进程 的 前 沿 探索 一 一 数字 化 与 21 世纪 人 文 精 
神 研讨 会 综述 ) 一 文 ,引用 我 国 著 名 哲学 家 陈 志 良 教授 
的 论点 ,首次 使 用 了 数字 人 文 这 一 名 词 ”。2016 年 ， 
北京 大 学 举办 首届 "数字 人 文 论坛 ”, 之 后 数字 人 文 浪 
潮 在 国内 爆发 ,一 时 间 涌 现 了 大 量 研究 ,主要 集中 在 数 
字 人 文 的 基本 理论 ,技术 驱动 下 的 人 文学 术 实践 转向 、 
新 合作 模式 引发 的 人 文学 术 文 化 变革 以 及 面向 数字 人 
文 研究 的 基础 设施 建设 等 方面 ”。2018 年 ， 大 数据 
视 域 下 数字 人 文 研究 "人选 年 度 中 国 十 大 学 术 热点 , 历 
史学 文学 ,语言 学 、 图 书 情报 学 ,艺术 学 等 多 个 学 科 的 


学 者 都 加 大 了 数字 人 文 研究 力度 。 但 随 着 研究 的 推 
进 , 诸 如 研究 定位 不 清 、 理 论 内 核 缺 失 技术 追 尝 、 知 识 
生产 “快捷 化 等 问题 日 渐 凸 显 , 开 始 有 学 者 提出 质 
疑 :“ 数 字 ” 到 底 为 “人 文 " 带 来 了 什么 ?“ 数 字 ” 在 人 文 
学 科 中 的 角色 与 定位 如 何 "? 学 理 和 实践 领域 关于 这 
些 问题 的 争论 莫衷一是 。 必 须 承 认 , “数字 ”与 人文” 
的 碰撞 为 人 文学 科 的 繁荣 发 展 带 来 了 新 的 思考 空间 和 
分 析 问 题 的 方式 ,过 去 人 文 研究 一 些 不 能 研究 的 、 或 者 
难以 研究 的 ,往往 都 能 在 数字 化 支持 下 得 到 解决 或 给 
与 启示 。 

近 几 年 来 ,在 开放 数据 .大 数据 ,智能 化 等 思维 和 
环境 的 影响 下 ,借助 数字 技术 ,数据 资源 和 数字 基础 设 
施 等 探讨 传统 或 新 颖 人 文 问 题 的 研究 大 量 增加 ,显现 
出 新 的 趋势 。 首 先 , 我 国 数字 人 文 研究 正在 从 认 知 探 
索 走 向 数字 化 探索 , 即 逐 渐 从 以 基础 理论 .综述 评论 、 
ee 

可 题 为 中 心 、 以 数字 数据 资源 为 利器 的 “数字 型 "人 研 
究 。 其 次 ,在 这 种 “数字 型 ”研究 中 ,也 逐渐 从 早期 “只 
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重 数据 "的 工程 思维 , 转 为 “数据 为 人 文 服务 ”的 研究 
思维 。 基 于 上 述 特 色 与 转型 趋势 ,有 必要 对 我 国 数字 
人 文 相 关 “ 数 字 型 "研究 做 深度 梳理 与 分 析 。 为 此 ,不 
同 于 大 多 “概论 式 " 综 述 ,本 文 将 视角 聚焦 到 数字 人 文 
的 基础 要 素 “ 数 据 ” 与 “技术 ”, 将 考察 范围 限定 为 相关 
“真实 性 ”学术 研究 ,以 期 揭示 "数字 " 与” 人文" 碰撞 的 
真实 全 貌 , 帮 助 “新 入 者 ”对 此 类 研究 有 一 个 直观 和 实 
在 的 了 解 ,为 国内 数字 人 文 新 趋势 的 发 展 提供 借鉴 。 


1 数据 来 源 与 研究 方法 
1.1 数据 来 源 


质 性 分 析 方 法 对 文章 的 研究 内 容 进 行 编码 标注 ,在 此 
基础 上 对 数据 及 方法 使 用 情况 进行 分 类 讨论 。 最 后 ， 
利用 高 频 关 键 词 开 展 共 词 分 析 ,总 结 主要 研究 类 型 。 


2 基本 描绘 分 析 


2.1 机 构 与 学 科 分 布 

统计 文章 作者 所 属 二 级 单位 , 见 表 1。 武 汉 大 学 
言 息 管理 学 院 / 信 息 资 源 研究 中 心 是 首要 研究 阵地 ， 
2011 年 便 建立 了 数字 人 文 研究 中 心 , 自 2018 年 起 相关 
研究 逐渐 增多 , 侧重 图 像 资 源 建设 “语义 表示 方 
法 ”知识 融合 技术 "等 方向 ,诸如 敦煌 壁画 和 文化 遗 


基于 上 述 研究 问题 ,本 文 将 数据 范围 限定 为 国内 
真正 运用 数字 技术 、 数 字 资 源 去 探讨 人 文 问题 的 科学 
贡献 。 符 合 纳 和 标准 的 文献 需要 同时 具备 以 下 特征 : 


产 项 目 都 产生 了 较 大 影响 。 上 海 图 书馆 排名 第 二 ,其 
自 2016 年 起 便 有 关于 家 谱 数 字 人 文 服务 的 相关 研 
究 ”, 在 此 之 后 ,又 构建 了 董 其 昌 数 据 库 ”、 人 名 规范 


四 价 用 人 文 数据 资源 或 数字 工具 开展 研究 ;四 研究 目 
的 是 解答 人 文 领域 的 学 术 问 题 。 为 保证 查 全 率 和 查 准 
万: 水 文采 取 主 题词 检索 和 人 工 筛 选 结合 的 方式 进行 
积 选 取 。 首 先 ,在 中 国 知 网 数据 库 中 ,以 检索 式 “SU 
= 数字 人 文 ) "进行 检索 ;文章 类 型 包括 全 部 期 刊 会 
认 ER 章 ;截至 2020 年 12 月 31 日 , 共 获 得 文献 928 篇 。 
交 同 ,浏览 文献 标题 和 摘要 ,人 工 剔除 不 符合 三 条 纳入 
标注 中 任意 一 条 的 文献 ,最 终 得 到 文献 147 篇 ,历年 发 
量 如 图 1 相关 研究 的 文献 数量 年 度 分 布 情况 见 图 
1。3 以 看 出 ,2012 年 左右 数字 人 文 “数字 型 "研究 开 


库 .印章 知识 库 等 多 个 专题 知识 库 ,在 学 术 研 究 中 利用 
率 较 高 。 整 体 来 看 ,机 构 分 布 具有 以 下 特点 :中 仍 是 以 
高 校 的 各 级 学 科 科研 单位 为 主 , 占 比 70.78% ;四 研究 
阵地 相对 分 散 且 均衡 ,大 有 “百家争鸣 ”之 势 , 其 中 , 信 
息 管理 学 院 .经济 管理 学 院 ,信息 科学 学 院 等 二 级 单位 
占 比 较 高 ;四 数字 人 文 为 图 书馆 的 实践 工作 者 参与 学 
术 研 究 提 供 了 新 兴 路 径 , 相 关 研 究 数量 占 比 达到 23. 
38% ,充分 反映 了 数字 人 文 研究 中 理论 与 实践 紧密 结 


合 的 特征 。 


表 1 研究 机 构 分 布 情况 


给 通 现 ;2017 年 之 后 ,文章 数量 呈 快 速 上 升 趋势 。 最 mn 文 
we i 量 / 3 量 /入 
早 移 一 项 研究 属于 当时 国外 发 展 较 成 熟 的 计算 语言 学 mm 
Ee 可 , 全 武汉 大 学 信息 管理 学 院 /信息 。 12 | 上 海 师 范 大 学 图 书 4 
方向 : 黄 敏 聪 学 者 利用 55 组 基本 汉字 在 书籍 中 的 使 用 资源 研究 中 心 
频 欧 ,计算 分 析 了 汉字 简 繁 体 的 演变 过 程 ” 。 上 海 图 书馆 10 | 山东 大 学 历史 文化 学 院 4 
mo 南京 农业 大 学 信息 科学 技术 。 7 | 北京 大 学 信息 管理 系 
n 学 这 
0 上 海 交通 大 学 图 书包 6 | 上 海 大 学 图 书 情报 档案 系 3 
和 南京 大 学 信息 管理 学 院 6 | 南通 大 学 经 济 与 管理 学 院 。 3 
江 “ 华东 师范 大 学 图 书馆 6 | 南京 师范 大 学 文学 院 3 
Ei 南京 农业 大 学 中 华农 业 文明 。 5 | 南京 农业 大 学 马克 思 主 义 。 3 
20 1 A pe 
研究 院 学 院 
10 
华东 师范 大 学 经 济 与 管理 学 南京 大 学 历史 学 院 
2012 2016 2017 2018 2019 2020 中 国人 民 大 学 信息 资源 管理 4 吉林 大 学 管理 学 院 3 


1 相关 研究 的 文献 数量 年 度 分 布 情况 


1.2 研究 方法 

本 文 结合 文献 计量 、 质 性 分 析 与 多 维 尺度 分 析 的 
方法 开展 研究 。 首 先 , 基 于 文献 的 题 录 信息 ,对 相关 研 
究 进行 基本 描绘 分 析 ,包括 研究 机 构 分 布 ,学科 分 布 情 
况 和 跨 学 科 特 征 等 。 之 后 ,基于 文献 的 内 容 信息 ,利用 


进一步 地 ,从 相关 文章 的 刊载 期 刊 关联 到 一 级 学 
科 ,探讨 相关 研究 的 学 科 分 布 情况 ,结果 如 图 2。 

总 体 而 言 ,学 科 分 布 多 元 化 , 共 涉 及 23 个 一 级 学 
科 , 履 盖 了 人 文 与 社会 科学 .自然 科学 工程 与 技术 科 
学 .农业 科学 等 全 部 门类 , 览 学 科 特 征 明显 。 其 中 ,图 
书馆 情报 与 文献 学 相关 研究 占 比 最 高 ,其 主要 贡献 在 
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忆 掀 术 方法 和 工具 的 提供 ,专注 于 信息 资源 管理 全 流 
种 的 技术 方法 ,如 信息 获取 中 的 信息 检索 "”、 信 息 描 
述 加 的 语义 表示 ” ,信息 组 织 中 的 元 数据 信息 挖 
着 物 的 数据 分 析 , 信 | 息 利用 中 的 可 视 化 "中 等 。 之 后 
次 是 历史 学 ,社会 学 和 文学 ,在 2017 年 后 相关 研究 
增 滋 。 虽 然 数字 人 文 的 概念 由 来 已 久 ,但 早期 的 人 文 
史料 数字 化 多 在 实践 中 开展 ;2018 年 后 , 随 着 数字 人 
闫 的 则 发 ,人 文学 者 才 越 来 越 多 地 参与 研究 。 从 数量 
来 圭 , 历 史学 研究 远 远 多 于 社会 学 和 文学 , “量化 历 
0 
的 门类 中 ,计算 机 科学 技术 相关 研究 数量 占 比 最 
高 ,这 部 分 学 者 的 主要 贡献 在 于 数据 资源 建设 和 使 用 
过 程 中 技术 难点 的 攻 训 。 与 图 情 档 学 科 不 同 ,计算 机 
学 科 所 关注 的 技术 问题 更 加 细 化 .针对 性 也 更 强 ,例如 
不 确定 数据 的 处 理 '” ,多 特征 知识 融合 '" 。 
2.2” 跨 学 科 性 
数字 人 文 自 诞生 之 日 起 ,就 携带 着 跨 学 科 的 基因 。 


本 节 基 于 作者 所 属 二 级 单位 的 一 级 学 科 , 对 每 篇 研究 


涉及 的 学 科 进 行 标注 和 统计 ,结果 见 图 
跨 学 科研 究 多 于 单 学 科研 究 , 占 比 达 
究 中 ,大 多 涉及 2 -3 个 学 科 。 

提取 跨 学 科研 究 构 建 学 科 交 又 网 络 , 见 图 4。 图 4 
中 节点 大 小 反映 度 的 大 小 :节点 越 大 ,代表 该 学 科 所 交 
又 的 学 科 数 量 越 多 。 图 中 共 涉 及 23 个 一 级 学 科 , 有 96 
对 学 科 交 叉 关 系 ;每 个 一 级 学 科 平 均 关 联 8 个 其 他 学 
科 , 且 分 布 较为 均衡 ,整体 来 看 学 科 间 联系 较为 紧密 。 


3。 整 体 来 看 ， 
58% ;里 学 科研 


1 
管 条 :家 
理 文 学 
学 学 


图 2 相关 研究 的 学 科 分 布 
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图 3 文章 涉及 的 学 科 数 量 分 布 


表 2 统计 了 节点 的 交叉 学 科 数 量 和 平均 关联 强度 。 

图 书馆 ,情报 与 文献 学 ,信息 科学 与 系统 科学 和 计 
算 机 科学 技术 作为 数字 人 文中 “数字 ”学科 的 代表 ,位 
于 网 络 中 心 ,呈现 “三 足 易 立 " 之 势 。 这 些 学 科 不 仅 关 
联 学 科 数 量 较 多 ,与 其 关联 学 科 的 联系 也 较为 紧密 , 往 
往 扮演 “技术 支撑 ”角色 ,但 侧重 不 同 。 图 书馆 、 情 报 
与 文献 学 关联 学 科 数 量 最 多 ,作为 数据 资源 和 数字 工 
具 的 主要 提供 者 ,在 多 个 学 科 中 渗透 应 用 。 而 信息 科 
学 与 系统 科学 学 科 平均 学 科 关联 强度 最 强 ,尤其 是 与 
图 情 档 学 科 和 计算 机 学 科 的 联系 最 为 紧密 。 历 史学 、 
文学 和 社会 学 作为 数字 人 文中 “ 人文” 的 主要 代表 , 关 
联 学 科 较 多 ,但 大 多 关联 强度 不 高 ;三 者 之 间 彼 此 交叉 
明显 ,产生 了 不 少 优秀 研究 ”” 。 图 中 还 显示 了 若干 
个 分 布 在 网 络 外 围 的 学 科 , 可 以 视 为 数字 人 文 的 拓展 
场景 ,充分 展现 了 数字 人 文 在 广大 学 科 中 的 发 展 空间 。 
其 中 ,管理 学 与 经 济 学 虽然 关联 学 科 数 量 不 多 ,但 关联 
强度 较 强 。 
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环境 科学 技术 


各 子 、 通信 与 动 控制 并 


新 闻 学 与 和 揪 学 


图 4 相关 研究 学 科 交叉 网 络 


表 2 各 个 学 科 的 交叉 学 科 数 量 和 平均 关联 强度 


-一 一 级 学 科 关联 学 科 数 量 / 个 ”平均 学 科 关联 强度 
涧 书馆 、 情 报 与 文献 学 17 6.59 
LO 文学 16 3.44 
CO 历史 学 16 3.25 
Shanes 系统 科学 15 7.60 
〇 9 计算 机 科学 技术 14 4.50 
2 ”社会 学 13 4.23 
农学 10 2.40 
CGO 生物 学 10 1.40 
> 管理 学 9 4.56 
经 济 学 9 3.56 
pA 马克 思 主 义 8 2.75 
.之 语言 学 8 1.38 
>< 艺术 学 8 1.25 
a 7 A 
mem 教育 学 7 1.29 
- 己 才学 6 1.33 
OQ 政治 学 5 1.00 
新 闻 学 与 传播 学 4 1.25 
环境 科学 技术 3 1.00 
综合 3 1.00 
预防 医学 与 卫生 学 2 1.00 
机 械 工程 1 1.00 
建筑 学 1 1.00 


注 : 平 均 学 科 关联 强度 = 某 一 学 科 与 其 他 学 科 的 共 现 总 次 数 /该 
学 科 的 共 现 学 科 总 数 ,反映 该 学 科 与 其 关联 学 科 的 平均 关联 强度 


3 “数字 "运用 情况 分 析 与 讨论 
3.1 数据 资源 的 使 用 

数字 人 文 的 数据 是 各 种 数字 文件 ,包括 各 类 人 文 
研究 对 象 的 数字 化 及 其 元 数据 。 文 献 分 析 显 示 , 相 关 
研究 主要 涉及 三 类 数据 来 源 : 专 题 数 据 库 、 自 整理 数据 
和 综合 数据 源 。 


3.1.1 专题 数据 库 

专题 数据 库 ,是 指针 对 某 一 特定 主题 建立 的 数据 
库 ,此 处 的 数据 库 是 广义 概念 ,包含 数据 库 、 数 据 集 或 
者 数据 平台 ,一 般 具 有 围绕 特定 专题 数据 规模 大 、 数 
据 质 量 高 开放 可 获取 等 特征 。 按 照 建设 牵头 或 主导 
机 构 的 性 质 ,主要 包括 国家 政府 部 门 主导 建设 的 专题 
数据 库 、 高 校 等 研究 机 构 主 导 建 设 的 专题 数据 库 \ 企 业 
自 建 专题 数据 库 等 类 型 。 从 选 题 视角 上 看 ,大 多 数据 
库 有 相对 明确 的 颇具 特色 的 学 科 主 题 ,通常 与 主办 机 
构 的 性 质 或 研究 范 畏 高 度 相 关 , 主要 用 以 支持 研究 团 
队 的 长 期 研究 。 其 中 , 既 有 专题 范围 相对 较 小 的 , 例 
如 :敦煌 研究 院 数字 中 心 的 敦煌 学 数据 库 、 暨 南大 学 的 
华人 华侨 专题 数据 库 海南 大 学 图 书馆 的 更 路 数据 
库 ” .东北 大 学 的 张学良 史料 数据 库 . 等 。 也 有 专题 
相对 宽泛 的 ,如 使 用 最 为 广泛 的 中 国 近 现 代 思 想 史 专 
业 数据 库 . 中 国 历代 人 物 传记 资料 库 (CBDB) 、 名 人 手 
稿 档案 库 等 。 

专题 数据 库 由 于 知识 聚集 度 高 .可 获得 性 强 .数据 
质量 佳 . 数 据 规模 大 , 深 受 研究 者 青睐 ,有 579% 的 研究 
均 有 涉及 ,不 乏 较 有 深度 的 优秀 研究 ,比如 《走向 新 世 
界 : 数 字 人 文 视野 下 中 国 近代 “世界 ”概念 的 形成 与 演 
变 》 一 文 ,学 者 从 中 国 近 现 代 思想 史 专 业 数据 库 (1830 
一 1930 ) 获取 中 国 近代 重要 政治 思想 文献 ,在 文本 处 理 
与 挖掘 的 基础 上 ,获得 了 质量 高 规模 大 的 文献 数据 ， 
对 1899 年 “世界 ”概念 涌现 后 至 今 的 演变 过 程 进行 深 
入 分 析 ” 。 本 文 对 利用 率 较 高 的 专题 数据 库 进 行 总 
结 , 见 表 3。 
3.1.2 自 整理 数据 

自 整理 数据 ,是 指 研究 者 围绕 特定 的 研究 问题 , 自 
行 收集 和 整理 的 数据 。 一 般 来 说 数据 规模 小 ,个 人 研 
究 色 彩 较 重 ,大 部 分 服务 于 相对 有 限 的 研究 问题 。 例 
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石 静 ,， 李 阳 . 数据 和 技术 运用 视角 下 我 国 数字 人 文 “数字 型 "研究 现状 及 启示 [J]. 图 书 情报 工作 ,2021 ,65(21):141 - 150. 


表 3 使 用 频率 较 高 的 专题 数据 库 


专题 数据 库 出 现 次 数 数据 库 简介 

中 国 历代 人 物 传记 库 [24] 11 中 国 历代 人 物 传记 资料 库 (CBDB ) 是 由 哈佛 大 学 费 正清 中 国 研究 中 心 .台湾 "中央 研究 院 " 历史 语言 研究 所 、 北 京 
大 学 中 国 古 代 研 究 中 心 及 中 文 在 线 四 方 共同 合作 打造 的 记录 中 国 古 典 数据 的 数字 人 文 资源 平台 ,其 整合 了 中 国 历 
史上 所 有 重要 的 传记 数据 

上 海 图 书馆 人 名 规范 “人 名 规范 库 ” 目 前 (2021. 02. 03 ) 网 页 显示 已 搜集 1 338 407 条 人 物 数据 ,时 间 跨 度 从 先秦 到 当代 ,以 上 图 元 数据 、 

库 [235] 上 图 近 现 代 人 名 规范 档 、 国 图 规范 档 ,网 络 百科 、 人 名 大 秤 典 .CBDB 等 为 基础 ,呈现 人 物 的 人 和 名、 籍贯 著作、 人 忆 
小 传 等 信息 

汉典 古籍 语料库 [261 2 汉典 古籍 是 免费 的 古籍 文库 ,截至 调研 时 间 (2021. 02. 03 ) 收藏 古文 38 529 篇 

上 海 图 书馆 全 国 报刊 索引 2 《全 国 报刊 索引 数据 库 》 系 国家 文化 部 立项 ,上 海 图 书馆 承建 的 重大 科技 项 目 。 数 据 库 格式 严格 按照 国家 有 关 标 

数据 库 !27] 准 ,其 著录 字段 包括 顺序 号 、 分 类 号 .题名 著者 著者 单位 .报刊 名 、 年 卷 期 .所 在 页 码 .主题 词 摘要 等 十 余 项 。 目 
前 该 数据 库 数据 已 回溯 至 1833 年 ,年 更 新 量 在 50 万 条 左右 

中 国 近 现 代 思想 史 专业 数 2 香港 中 文大 学 中 国文 化 研究 所 当代 中 国文 化 研究 中 心 研 究 开发 ; 现 由 政治 大 学 “中 国 近 现代 思想 及 文学 史 专 业 数 

据 库 据 库 (1830 -1930)“ 计 划 办 公 室 提供 检索 服务 

如 :为 了 对 德意志 群像 做 描绘 与 分 析 , 学 者 对 《德意志 | 有 时 需要 结合 具体 问题 和 其 它 来 源 的 数据 一 起 使 用 。 


人 物 志 》 的 文本 进行 整理 和 挖掘 ;为 探究 春秋 时 期 
各 诞 个 国 的 战争 合作 与 对 抗 关系 ,学 者 对 《 左 传 》 战争 
负 大 进行 信息 抽取 和 标注 ,得 到 每 次 战争 的 进攻 方 和 
呢 防 ” 等 从 某 种 意义 上 来 说 , 自 整理 数据 的 获取 
加 3 是 传统 人 文 研究 中 数据 获取 方式 的 延展 。 在 信息 
援 林 和 数字 工具 出 现 之 前 ,学 者 也 在 做 着 “从 原始 的 人 
着 笠 中 提取 信息 " 的 工作 ,只 是 大 多 数 是 以 人 工 方式 
炮 驶 ,所 能 转化 .抽取 和 分 析 的 数据 规模 较 小 .管理 与 
较 复杂 。 数 字 工 具 的 出 现 将 人 文学 者 从 这 部 分 繁 
作 中 解脱 出 来 ,从 这 个 角度 来 看 ,无 论 数字 人 文 
来 人 文学 科研 究 范式 的 颠覆 ,都 有 利于 相关 研 
和 到 开展 。 


A 


[hail 


iE 
站 


数据 源 , 是 指 那些 并 非 专 门 为 数字 人 文 建立 
的 开放 可 获取 的 数据 资源 ,具有 数据 规模 巨大 、 数 据 
质量 较 高 内容 主题 广泛 的 特点 。 可 以 分 为 两 大 类 :一 
是 各 类 文献 数据 库 , 如 CNKI、 CSSCI、 Web of Science 
等 ;二 是 网 络 开放 资源 ,如 维基 百科 .百度 百科 各 种 网 
络 社区 (如 豆 斩 网 、Friend of a Friend 等 ) ,在 相关 研究 
中 有 时 以 辅助 数据 源 的 形式 出 现 。 如 《更 江南 佳 银 : 多 
源 古 今 文本 数据 融合 的 沪 上 饮食 图 谱 构建 》 一 文中 , 作 
者 将 爱 如 生 专 题 数 据 库 中 的 方志 数据 和 "下 厨房 "网 
站 中 的 现代 菜谱 数据 相 结 合 ,构建 了 上 海 饮 食 的 知识 
图 谱 用 以 分 析 各 个 实体 间 的 关联 演化 ”| 。 

整体 来 看 ,三 类 数据 源 相互 补充 ,共同 构成 数字 人 
文 研 究 的 数据 资源 基础 。 专 题 数据 库 数据 规模 适中 、 
数据 质量 较 好 , 且 具 有 一 定 的 针对 性 ,应 用 最 为 广泛 。 
自 整 理 数 据 规模 最 小 ,但 针对 性 也 最 强 ,服务 于 特定 学 
者 的 单 点 研究 ,但 一 般 不 具 开 放 性 。 综 合 数 据 源 数据 
量 大 .主题 广泛 .更 新 及 时 、 获 取 容 易 , 但 针对 性 较 差 ， 


二 人 Dz A 


3.2 主要 研究 类 型 

关键 词 是 文章 作者 抽取 的 、 用 来 概括 文章 主题 和 
研究 内 容 的 词 或 词组 。 本 部 分 提取 每 篇 文章 中 的 关键 
词 ,共计 得 到 397 个 。 针 对 同义词 表述 不 同 的 问题 ,人 
工 对 其 做 规范 化 处 理 : 例 如 “主题 模型 ”与 “主题 建 模 ” 


表 义 相似 ,统一 规范 化 为 “主题 模型 ";“ 文 献计 量 学 ” 


与 “文献 计量 "统一 为 “文献 计量 " ;“GIS” 与 “地 理 信 
息 系统 "统一 为 “地 理 信息 系统 ”。 处 理 之 后 得 到 关键 
词 378 个 ,将 出 现 频 次 大 于 5 的 关键 词 定 义 为 高 频 关 
键 词 , 删 去 "数字 人 文 " 这 一 与 主题 相关 度 过 高 的 词 ， 
将 其 余 的 71 个 高 频 关 键 词 作 为 共 词 分 析 的 基础 ,如 表 


上 [到 
4 所 示 : 
表 4 高 频 关键 词 列表 
序号 关键 词 词 频 | 序号 关键 词 词 频 
1 关联 数据 48 37 莎士比亚 8 
2 可 视 化 44 38 哲学 研究 8 
3 知识 图 谱 37 39 深度 学 习 8 
4 社会 网 络 分 析 24 40 清 代 女性 8 
5 马克 思 著 作 24 41 观念 史 8 
6 CSSCI 24 42 地 方 历史 文献 7 
7 元 数据 23 43 计算 叙事 7 
8 知识 组 织 23 44 文学 制图 7 
9 地 理 信 息 系 统 19 45 主题 7 
10 特色 资源 19 46 唐 长 安 7 
11 知识 发 现 17 47 唐 传 奇 7 
12 国际 ee 16 | 48 知识 生产 7 
13 语义 13 49 研究 热点 允 
14 知识 库 13 50 图 书馆 7 
15 古籍 数字 化 12 51 地 理 叙 事 7 
16 学 术 影响 力 12 2 空间 叙事 
17 空间 人 文 12 | 53 知识 关联 
18 知识 模型 12 54 话语 7 
19 文献 计量 12 55 女性 人 物 兴 
20 方志 物产 12 56 停 用 词 6 
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( 续 表 4) 

序号 关键 词 词 频 | 序号 关键 词 词 频 
21 文本 挖掘 12 57 明代 进士 6 
22 刀 国 时 期 文献 11 58 智能 知识 服务 6 
23 本 体 11 59 唐诗 知识 图 谱 6 
24 数据 库 11 60 人 文 计算 6 
25 古文 信息 处 理 10 61 条 件 随机 场 6 
26 知识 服务 10 62 文献 辨析 6 
27 数据 可 视 化 10 63 河南 省 6 
28 命名 实体 识别 10 64 人 工 智 能 6 
29 CiteSpace 10 65 人 文学 者 6 
30 文本 可 视 化 9 66 人 文 数 据 库 6 
31 主题 模型 9 67 文本 关系 6 
32 顾 太 清 8 68 董 其 昌 6 
33 茶 文 化 8 69 技术 责任 6 
34 秋 红 吟 社 8 70 网 络 文档 6 
35 在 华 外 文 报纸 8 71 自然 语言 处 理 6 


> 
LO 由 关键 词 共 现 频次 生成 共 词 矩 阵 , 在 此 基础 上 生 


成 相 异 矩阵 ,计算 方法 如 下 : 

cooccur, , 

其 中 ,Dissimiliary, ,表示 a\b 两 个 关键 词 的 相 异 系 
数 ,cooccur, ,表示 a、b 两 个 关键 词 的 共 现 次 数 ,occur。 
表示 a 词 出 现 的 频次 ,occur, 表示 上 b 词 出 现 的 频次 。 使 
用 SPSS 进行 二 维 尺 度 分 析 (ALSCAL) ,选取 平面 对 称 
的 图 形 描述 关键 词 的 研究 结构 ,对 关键 词 相 异 矩阵 进 
行 二 维 斥 度 分 析 得 到 相关 可 视 化 结果 ,如 图 5 所 示 。 
图 中 横 轴 代表 “数字 ”维度 ,数值 越 大 代表 研究 中 的 
“数字 ”色彩 越 重 , 纵 轴 代表 "人文 ”维度 ,数值 越 大 代 
表 研 究 中 的 ”人文 ”因素 越 多 。 从 结果 图 来 看 ,关键 词 
分 布 在 三 个 区 域 ,代表 了 不 同类 型 研究 的 知识 结构 , 表 
明 不 同 流派 .领域 或 学 术 共 同体 在 相关 研究 中 的 位 置 
与 关系 ,可 用 于 分 析 各 类 研究 的 研究 路 径 ” 。 


Dissimiliary, , = 1 


9 
eg 
S 女性 人 物 0 话语 条 件 随机 声 
本 唐 传奇 人 文 计算 ”0 OD 人 @ 家 其 昌 jmp 
< 十 io: 文学 制图 0@ 生产 河南 省 Qe 保 用 亲 
©O 计算 私事 Q 智能 知识 服务 O 知识 关联 
茶 文 化 ”在 华 外 文 报纸 唐诗 知识 图 谱 “O 
这 Ce 明代 进 二 
GN | i ® 清 代 女 性 
OO 习 数据 可 视 化 。 〇 哲学 研究 
AN * 0.0 一 题 模型 
~ 呈 
划 
>< -05 一 
文本 可 视 化 
© 地 方 历史 文献 。 知识 模型 
SC 10 关联 数据 | 
到 et Q @ 和 知识 库 特色 资源 
二 文献 量 2 ON 命名 实体 识别 
© 5 二 地 理 信息 系统 可 视 化 名 社会 网 络 分 析 
| T | 
-二 _1 0 | 
维 数 1: 数字 
图 5 多 维 尺 度 分 析 结 果 


3.2.1 资源 建设 型 研究 

资源 建设 型 研究 是 以 数据 基础 设施 建设 为 主 的 研 
究 ,致力 于 研究 各 种 数字 文件 的 生产 与 组 织 ,构建 独立 
于 具体 应 用 和 研究 领域 ,能 够 长 期 保存 、 共 建 共 享 和 开 
放 利用 的 数据 资源 ,包括 数据 库 、 数 据 集 ,数据 平台 等 
各 种 形式 。 从 图 中 来 看 ,此 类 研究 共 包 含 23 个 关键 
词 ,主要 分 布 在 右 下角。 部 分 关键 词 与 数据 组 织 管理 
有 关 , 如 知识 模型 .知识 组 织 ,数据库 等 ,涉及 的 具体 研 
究 如 :以 特色 馆藏 为 基础 ,构建 民国 文书 方志 古籍 .地 
方 非 遗 等 特色 数据 库 ; 梳 理 领 域 知 识 和 词 表 ,构建 特定 


领域 的 元 数据 ,本 体 和 令 词 表 等 ;利用 馆 际 联盟 开展 数 
据 资源 融合 ,为 不 同 专题 数据 库 的 关联 融合 提供 数据 
基础 。 从 分 布 位 置 来 看 ,它们 在 ”人文 " 横 轴 的 下 半 部 
分 ， 数 字 ”" 横 轴 的 右 半 部 分 ;人 文 色 彩 较 少 , 且 从 左 至 
右 ,技术 属性 越 来 越 强 , 如 文本 可 视 化 、 知 识 模型 、 命 名 


实体 识别 古文 信息 处 理 等 ;也 有 少数 研究 是 学 者 结合 


数据 资源 对 特定 人 文 问题 的 辨析 。 

资源 建设 型 研究 是 数字 人 文 领域 中 起 源 最 早 发 
展 最 为 成 熟 的 一 类 研究 ,也 是 后 续 研究 开展 的 基础 ,这 
与 柯 平等 学 者 "的 研究 阶段 划分 一 致 。 此 类 研究 技术 
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属性 较 强 ,研究 者 多 集中 在 图 书馆 .情报 与 文献 学 学 
科 .GLAM 等 机 构 , 人 文学 者 一 般 仅 在 领域 知识 和 建设 
需求 中 提供 辅助 。 此 外 ,此 类 研究 还 具有 实践 先 于 理 
论 的 特点 ,早期 很 多 研究 都 是 先 开 展 实践 ,再 总 结 理 
论 。 但 随 着 数据 资源 的 激增 ,这 种 方式 带 来 的 信息 孤 
岛 .重复 建设 等 问题 也 日 渐 凸 显 , 越 来 越 多 的 学 者 提出 
理论 和 标准 建构 的 重要 性 。 
3.2.2 工具 驱动 型 研究 

工具 驱动 型 研究 是 指 将 相对 成 熟 的 工具 、 模 型 或 
方法 应 用 到 人 文 新 场景 下 的 研究 ,比如 Citespace .主题 
模型 等 ,研究 数量 较 多 。 此 类 研究 包括 27 个 关键 词 ， 
从 位 置 来 看 ,主要 位 于 “数字 ” 纵 轴 的 左 侧 , 沿 着 纵 轴 
向 下 ,关键 词 的 技术 属性 增强 、 人 文 属性 减弱 ,如 本 体 、 
数字 化 等 ; 且 关 键 词 分 布 横 跨 “人 文 " 横 轴 , 较 为 均衡 
分 杰 。 相 比 资源 建设 型 研究 ,工具 驱动 型 研究 整体 的 
“KX" 色 彩 更 强 ,与 人 文学 科 的 融合 也 更 加 深入 。 
由 于 所 使 用 工具 技术 属性 的 强 弱 程度 、 人 文思 想 
的 肖 舌 程度 不 同 , 此 类 研究 的 最 终 面貌 存在 一 定 差别 。 
比 录 在 横 轴 下 半 部 分 的 研究 ,涉及 关键 词 “ Citespace” 
“GSSCIT “古籍 数 字 化 "等 ,技术 上 较为 简单 ,并 且 人 文 


有 


恩 想 渗透 程度 较 浅 ,一 般 多 是 提供 问题 场景 。 而 横 轴 


:的 使 用 场景 ,还 为 技术 工具 的 使 用 提供 目标 指引 ， 
信托 完 
和 


研究 工具 为 研究 问题 服务 。 值 得 注意 的 是 ,分 布 位 
se】 
置信 


偏 上 的 时 空 人 文 相关 研究 占 比较 大 ,这 部 分 研究 不 
仅 骨 到 数字 人 文史 料 , 还 涉及 时 间 和 空间 位 置信 息 的 
抽 配 ,在 时 空 维度 上 考察 特定 人 文 问题 ,是 兼 具 “ 数 
字 ” 与 “人 文 " 思 维 的 研究 成 果 。 如 从 唐诗 中 抽取 主要 
空间 方位 词 ,探讨 唐 代 诗人 乐园 空间 认 知 的 变化 ”; 
结合 人 物 传记 数据 和 地 理 位 置 数据 ,探究 明代 进士 群 
体 的 时 空 分 布 与 变迁 过 程 '" ;从 空间 视 域 下 考察 社会 
经 济 和 基础 文教 对 作家 地 理 分 布 的 影响 "等 。 

整体 来 看 ,工具 驱动 类 研究 一 般 均 兼 具 “ 数 字 ” 与 
“人 文 "属性 ,但 技术 工具 的 使 用 水 平 存 在 一 定 差异 ， 
这 也 在 一 定 程度 上 区 分 了 研究 层次 ;而 工具 的 使 用 水 
平 主要 受到 研究 中 “ 人文" 思维 渗透 程度 的 影响 。 此 
外 ,此 类 研究 的 主题 受 数字 人 文 研究 热点 的 影响 较 大 ， 
比如 早期 研究 中 数据 需求 大 多 是 单 来 源 .文本 型 的 , 因 
此 文本 挖掘 技术 是 研究 重点 ;之 后 随 着 研究 的 深入 , 数 
据 需求 转 为 多 来 源 .多 类 型 的 ,相应 的 研究 重点 就 转 为 
知识 融合 ;近年 来 ,很 多 人 文学 者 开始 关注 图 像 古 汉 
语 数字 资源 利用 ,专门 的 图 像 处 理 与 古文 处 理 技术 也 


随 之 大 量 涌 现 。 
3.2.3 场景 融合 型 研究 

场景 融合 型 研究 是 由 人 文学 科 的 具体 研究 情境 为 
主导 ,综合 运用 数字 资源 和 数据 思维 对 特定 人 文 问 题 
进行 深度 辨析 的 研究 。 此 类 别 共 涉及 21 个 关键 词 ,从 
分 布 位 置 来 看 ,处 于 坐标 系 的 对 角 线 ,是 三 大 类 型 中 将 
“数字 " 与” 人文? 融合 得 较 深 入 的 一 类 研究 。 

从 内 容 来 看 ,此 类 研究 使 用 的 技术 较 前 两 类 更 加 
专 深 ,如 知识 图 谱 、 条 件 随机 场 、 人 工 智 能 等 ;人 文思 维 
的 渗透 也 更 深入 ,大 多 并 非 直接 享受 数据 资源 建设 的 
成 果 ,而 是 涉及 到 数据 基础 资源 建设 的 细节 处 理 过 程 ， 
如 文献 辨析 、 停 用 词 处 理 等 。 这 反映 出 当前 数字 人 文 
“数字 型 ”研究 中 ,已 经 出 现 *“ 数 字 ”" 与 ”人文 " 深 度 碰 撞 
融合 的 研究 路 径 。 此 类 研究 中 ,人 文学 者 的 角色 不 单 
是 数据 和 和 工具 的 使 用 者 ,同时 也 是 数据 基础 设施 的 
建设 者 。 这 种 角色 的 转变 会 对 具体 研究 过 程 产生 影 
响 ,使 得 人 文学 者 从 数据 资源 .数字 技术 的 获取 应 用 环 
节 前 置 到 建设 开发 环节 。 这 种 全 过 程 的 深度 参与 ,是 
数字 人 文 研 究 深化 发 展 的 时 代 要 求 , 也 是 重要 的 未 来 
趋势 。 

场景 融合 型 研究 的 典型 特点 是 整个 研究 过 程 以 人 
文 问题 和 场景 需求 为 主导 ,人 文 眼 光 和 数据 思维 始终 
交织 存在 。 虽 然 早期 研究 多 是 简单 的 数据 工具 和 方法 
在 人 文 领域 的 迁移 应 用 “数字 ”大 过 "人文 ”; 但 是 近 
年 来 , 随 着 研究 的 深入 和 人 文学 者 信息 素养 的 提升 , 媒 
介 融 合 时 代 的 数据 技术 和 符号 属性 已 经 在 一 定 程度 上 
改变 了 人 文学 科 故 事 组 织 的 逻辑 , 越 来 越 多 的 人 文学 
者 开始 注重 基于 数字 资源 或 利用 数据 思维 去 探究 人 文 
问题 ;信息 管理 等 其 它 学 科 的 学 者 也 不 再 仅仅 “为 建 库 
而 建 库 ”, 而 是 更 多 地 结合 人 文思 维 与 问题 场景 开展 数 
据 建 设 。 


4 ”对 数字 人 文 研究 的 若干 思考 


4.1 面向 数字 人 文 研究 的 数据 基础 设施 搭建 问题 
科学 研究 离 不 开 数 据 的 支持 ,海量 的 规范 的 、 开 
放 的 、 关 联 的 数据 资源 同样 也 是 数字 人 文 研究 的 基础 
“血液 ”。 尽 管 目前 支持 数字 人 文 研究 的 数据 库 等 已 
经 得 到 了 较 好 的 改进 ,但 仍然 有 以 下 亟待 解决 的 问题 : 
(1) 数 据 孤 立 , 重 复 建设 。 虽然 目前 面向 数字 人 
文 的 专题 数据 库 建 设 如 火 如 茶 , 但 由 于 缺乏 统一 的 规 
范 和 标准 ,无 法 互通 互 享 ,应 用 最 多 最 广 的 只 是 少数 几 
个 大 型 专题 数据 库 , 仍 有 大 量 的 数据 库 处 于 不 可 用 或 
未 开放 状态 ,一 方面 会 造成 数据 孤立 、 资 源 浪费 ; 男 一 
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方面 ,数据 关联 取 用 困难 和 数据 需求 增长 之 间 的 矛盾 ， 
又 会 带 来 同类 数据 的 重复 建设 问题 。 

(2) 数 据 来 源 较 单一 ,以 文本 数据 为 主 。 从 研究 
主题 来 看 ,当前 已 经 出 现 了 计量 电影 .时 空 人 文 等 研 
究 , 学 者 对 非 文 本 数据 的 需求 增加 ,而 目前 可 用 的 数据 
资源 大 多 仍 来 自 文本 数据 。 随 着 数字 人 文 向 其 他 领域 
的 快速 渗透 ,数据 资源 类 型 逐渐 丰富 也 是 必然 趋势 。 
但 那些 现存 的 非 结 构 化 .以 各 种 媒体 形式 存在 的 数据 
如 何 处 理 仍 是 一 个 难点 ,尚且 依赖 于 未 来 技术 的 突破 。 

(3) 数 字 工具 的 开发 不 足 。 数 据 使 用 复杂 性 往往 
会 降低 人 文学 者 的 使 用 积极 性 ,多 数 资源 建设 的 重 
点 仍 停留 在 数据 收集 与 知识 组 织 层面 ,对 知识 服务 的 关 
注 不 足 ; 当 前 相关 研究 中 应 用 到 的 工具 多 是 从 其 他 学 科 
直接 搬运 ,比如 直接 将 Citespace .社会 网 络 分 析 等 迁移 

大 文 场景 中 ,缺乏 针对 特色 数据 库 .特色 研究 问题 的 
大 函 工具 ,这 也 是 导致 数据 可 利用 性 低 的 原因 之 一 。 

x 些 问题 的 解决 有 赖 于 各 方 协同 配合 ,尤其 是 以 
征管 理 为 主 的 图 情 档 学 科 更 应 当 积极 发 挥 作用 。 如 


便 
存 学 者 就 提出 图 书馆 学 是 数字 人 文 产生 的 基础 学 科 ， 
和 承担 起 探索 数字 人 文理 论 与 实践 的 工作 ” 。 实 际 
志和 目前 很 多 机 构 也 都 在 关注 并 重视 数字 人 文 基础 设 
施 碧 建 ,但 更 多 采用 的 是 独立 开发 模式 ,个 别 采 用 的 众 
全 剖 模 式 有 待 进一步 推广 。 

4, 包 数字 人 文学 者 的 数字 学 术 能 力 问题 

xS 从 人 文学 科 的 特征 来 看 ,其 研究 的 领域 特征 和 个 
人 效 彩 较 明显 ,没有 通用 套路 ,特定 研究 问题 对 数据 、 
工 上 其 ,平台 的 需求 千差万别 。 如 史学 研究 中 需要 利用 
数 节 技术 ,对 大 规模 历史 文献 中 复杂 的 网 络 关系 进行 
提取 和 组 织 ,而 哲学 研究 中 可 能 更 关注 概念 的 产生 与 
演化 。 因 此 ,在 数字 人 文 相关 实践 过 程 中 ,从 数据 的 获 
取 选择 、 分 析 到 呈现 的 全 部 环节 ,都 需要 特定 场景 下 
的 人 文学 者 全 程 紧密 参与 指导 , 自然 也 对 其 数字 学 术 
能 力 提 出 了 更 高 的 要 求 。 

从 研究 现状 与 趋势 来 看 也 是 如 此 ,资源 建设 型 和 
工具 驱动 型 研究 占 比较 高 ,而 这 两 者 都 与 数字 技术 紧 
密 关联 ,单纯 利用 数据 资源 建设 成 果 和 较为 简单 的 数 
字 技术 工具 已 不 足够 ;从 未 来 趋势 看 “数字 " 对 于 “人 
文 "的 作用 绝 不 仅 是 简单 的 工具 应 用 ,而 是 超越 了 数据 
资源 .工具 甚至 方法 外 。 场 景 融合 型 研究 更 是 对 人 文 
学 者 的 信息 素养 提出 了 更 高 的 要 求 ,不 仅 需要 人 文学 
者 参与 到 数据 资源 建设 ,技术 工具 开发 过 程 ,还 需要 其 
数据 思维 乃至 数据 素质 的 全 面 提升 ,能 够 根据 问题 情 
境 和 研究 过 程 灵活 运用 数据 和 工具 ,达到 “数字 "与 


“人 文 "深度 融合 。 
4.3 数字 人 文中 "人 文 "的 角色 转变 问题 

如 前 所 述 ,数字 人 文 的 热潮 引起 了 学 者 们 的 冷 思 
考 ,关于 “数字 "与 "人文 "就 轻 就 重 的 探讨 和 分 歧 一 直 
存在 ,数字 人 文中 人 文 的 定位 如 何 ? 数字 人 文 对 于 人 
文学 科 的 发 展 有 何 益 听 ?诸如 此 类 问题 层出不穷 。 

数字 人 文 无 法 取代 传统 人 文 ,几乎 已 经 成 为 共识 。 
数字 人 文 是 人 文学 科 的 延伸 ,而 非 蔡 代 , 它 为 人 文学 者 
提供 方便 利用 的 数据 资源 和 数字 工具 ,一 定 程度 上 将 
其 从 繁重 的 资料 查找 组 织 工作 中 解放 出 来 。 更 重要 的 
是 , 它 为 人 文学 者 提供 了 更 广阔 的 思辩 空间, 随 着 数字 
人 文 发 展 过 程 的 深入 ,人 文学 者 的 数字 素质 得 到 提升， 
就 能 够 更 好 地 利用 数字 反哺 传统 人 文 ,真正 实现 “ 数 
字 "与 “人 文 "的 双向 共生 。 当 然 ,数字 人 文 的 火热 与 
可 观 的 成 果 , 也 无 法 避免 会 在 一 定 程度 上 减弱 人 文学 
者 对 其 它 方面 问题 的 关注 ,对 人 文科 学 的 思辨 性 和 深 
度 产生 负面 影响 ,造成 * 重 数字 , 轻 人 文 "的 现象 。 归 
根 结 底 ,数字 人 文 仍 是 人 文 色彩 为 主 的 领域 “数字 ” 
一 词 具 有 明显 的 工具 属性 ( 当然 并 不 仅仅 是 工具 ) , 工 
具 本 身 无 好 坏 ,其 产生 的 效果 如 何 依赖 于 使 用 者 如 何 
运用 。 倘 若 使 用 者 自身 存 有 “ 唯 数据 论 "的 思维 误区 
或 数据 能 力 欠 缺 的 问题 ,最 后 结果 便 很 可 能 是 王 大 于 
利 。 但 因 嘻 废 食 之 举 不 可 取 , 降 低 消极 影响 的 方法 应 
当 是 提高 使 用 者 的 能 力 ,而 非 抛弃 工具 。 此 外 ,人 文学 
科 的 “数字 ”转化 也 是 未 来 趋势 ,因为 从 根本 上 来 说 ， 
数字 人 文 的 出 现 并 不 是 计算 机 .信息 等 强势 学 科 对 人 
文学 科 的 辐射 ,而 是 来 自 于 人 文学 科 本 身 研 究 基础 设 
施 和 学 术 环境 的 变化 5 。 

从 资源 建设 .工具 了 驱动 到 场景 融合 “数字 ”与 “人 
文 "的 碰撞 正在 不 断 加 深 。 在 这 个 过 程 中 ,也 必 将 带 来 
各 类 研究 路 径 的 演化 ,人 文学 者 需要 在 各 类 型 研究 中 
适当 增加 参与 度 ,这 不 仅 有 利于 这 两 类 研究 的 发 展 ,也 
能 通过 数据 资源 质量 改进 ,技术 工具 适用 改善 .学 者 数 
字 学 术 能 力 提升 等 方式 ,间接 将 数字 人 文 融 合 研究 带 
上 新 的 台阶 。 因 此 ,人 文学 者 既 应 该 保持 批判 与 警醒 ， 
更 应 该 拥抱 新 的 机 遇 与 挑战 ,在 人 文 精神 和 数据 思维 
中 寻求 平衡 。 


S 结语 


本 文 以 数字 人 文中 的 “数字 型 "研究 为 研究 对 象 ， 
探究 数字 人 文 研究 中 “数字 ”与 人文”" 交 又 融合 的 问 
题 , 从 研究 概况 到 "数字 "运用 情况 .主要 研究 类 型 ,再 
到 深度 反思 ,得 到 了 一 些 结论 和 启示 : 
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(1) 图 情 档 学 科 、 文 史学 科 和 计算 机 学 科 是 主要 
的 研究 阵地 , 且 逐 渐 向 社会 学 .经 济 学 等 领域 渗透 ,四 
显 出 较 强 的 交叉 性 ;整体 没有 明显 的 “一 家 独 大 ” 现 
象 ,而 是 分 布 均衡 、 百 家 争鸣。 各 个 学 科 、 各 方 机 构 在 
相关 研究 中 都 有 广阔 空间 ,因此 利用 自身 特色 与 优势 ， 
在 数字 人 文 领域 打造 自身 学 科 话 语 ,目前 处 于 “窗口 
期 ”。 

(2) 少 数 几 个 大 型 专题 数据 库 和 研究 者 自 整 理 数 
据 是 主要 数据 来 源 ,大 多 专题 数据 库 的 利用 率 不 高 。 
一 方面 是 由 于 数据 本 身 质量 不 佳 . 可 获取 性 低 , 另 一 方 
面 也 受 限于 研究 者 的 数据 素养 。 未 来 可 尝试 通过 机 构 
联合 或 学 科 联 合 , 自 上 而 下 对 各 方 “ 闲 置 "资源 再 梳 
理 .再 整合 .再 利用 ,同时 在 此 过 程 中 增强 用 户 意识 , 
消 研 究 者 的 意见 ,使 得 专题 数据 库 真正 服务 于 学 术 研 


ee 


PP 
COD(3 ) 相 关 研 究 主要 有 三 类 :资源 建设 型 .工具 驱动 


[场景 融合 型 ,其 中 场景 融合 型 研究 兴起 相对 较 晚 、 
蝇 较 少 , 但 其 在 “数字 ”和 “ 人文” 中 获得 了 较 好 的 平 
得 和 深 度 的 融合 ;从 二 元 尺度 分 析 结 果 看 ,其 与 工具 驱 
动 副 研究 的 边界 逐渐 靠近 , 随 着 研究 的 积累 和 深入 , 场 
外 合 型 研究 有 望 成 为 工具 型 研究 的 未 来 趋势 ,并 且 
影 啊 资源 建设 型 研究 的 热点 走向 。 从 研究 者 来 看 , 则 
害 借 生活 思 维 ,以 场景 意识 为 主导 ,巧妙 挖掘 数据 , 适 
当 刹 用 工具 ,才能 在 新 趋势 下 抓 住 机 遇 , 提 升 数字 人 文 
相 疾 研究 品质 。 

已 当然 ,本 文 也 有 一 定 的 局 限 :OD 仅 以 文献 为 研究 的 
数据 来源 ,可 能 对 相关 研究 覆盖 不 全 ,尤其 是 一 些 社会 
机 构建 立 的 数字 人 文 专题 数据 库 及 行业 报告 并 未 涵盖 
在 内 。@ 在 文献 的 选择 和 编码 标注 过 程 中 ,也 可 能 存 
在 一 定 的 主观 性 ,这 可 能 对 结果 会 产生 一 些 偏差 。 因 
此 ,未 来 研究 中 可 考虑 拓展 为 基于 多 源 数据 的 分 析 ; 同 
时 ,也 可 进一步 增加 对 国外 文献 的 综述 ,对 国内 外 数字 
人 文 发 展 情况 进行 对 比分 析 , 为 数字 人 文 及 其 相关 学 
科 发 展 提供 参考 。 
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Present Situation and Enlightenment of Digital Humanities “ Digital-type” Research in 
China from the Perspective of Data and Technology Application 
-一 Shi Jing Li Yang 
> School of Information Management, Nanjing University, Nanjing 210023 
co Absiract: | Purpose/significance | Many research findings in digital humanities have emerged in China, and 
Sigital humanities develops gradually from the cognitive exploration stage to the digital exploration stage in recent 
rs. From the micro perspective of “ data resources” and “ digital technology” , this paper describes the actual pan- 
orama of the collision between “ digital” and “humanity” by quantitative analysis, in order to have an intuitive and 
Factical cognition of “ digital-type” research in digital humanities. | Method/process | By using bibliometrics, 
alitative analysis and multi-dimensional scale analysis, this paper made an in-depth analysis and reflection on do- 
Cestic digital humanities related research from the aspects of research institutions distribution, interdisciplinary char- 
Gleristics, “digital” utilization and primary research types. | Result/conclusion | From the perspective of research 
Dstitutions, digital humanities research is evenly distributed and has broad space in multiple disciplines; from the 
Sap of data, a few large thematic databases and data self-collated by researchers are the main sources; from 
DI perspective of research types, there are resource building research, tool-driven research and scenario-integrated 
agesearch ，each of them has a specific focus, and scenario-integrated research achieves a better balance between “ dig- 
ey and “humanity”. In the future, it is necessary to actively build appropriate data infrastructures, cultivate the 
digital academic ability of scholars, and promote the transformation of the role of “ humanity” to support the paradigm 
change of digital humanities research. 
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